智慧應用 影音

會聽懂情緒的 AI 客服:Amazon Connect 如何用 Nova Sonic 重新定義對話體驗

  • DIGITIMES / 台北
  • 2025-12-30 00:00:00
當客戶撥打客服專線,聽到「請按 1 選擇中文服務、請按 2 查詢訂單、請按 3…」時,挫折感已經開始累積。在層層選單中迷航、等待轉接、重複說明問題——這些傳統互動式語音應答 (Interactive Voice Response, IVR) 系統的痛點,每天在全球數百萬通客服電話中重複上演。更令人困擾的是,即使 AI 語音助理能準確辨識「我的訂單沒收到」這句話,卻聽不出客戶語氣中的焦慮或憤怒,只能以一貫的中性語調回應,讓已經不滿的客戶感到更加被忽視。
2025 年 12 月 1 日,AWS 在拉斯維加斯舉辦的年度盛會 re:Invent 上,針對其雲端客服中心解決方案 Amazon Connect 釋出重大更新,正式導入代理式 AI (Agentic AI) 能力,並且採用先進的 Nova Sonic 語音模型。這不只是技術升級,而是客服互動模式的典範轉移——AI 不再只是「辨識文字的機器人」,而是能夠理解語調、捕捉情緒、自然對話的智慧夥伴。
Nova Sonic 語音模型帶來的突破在於「理解如何說」而非「只聽懂說什麼」。它能捕捉語調、辨識情緒、掌握對話節奏與口音差異,跨語言理解並流暢回應。「真的嗎?」這三個字,可能是驚訝的疑問、可能是質疑的反駁、可能是諷刺的嘲弄,聲音的細微差異決定了意義。這種對聲學脈絡的深度理解,正是 Nova Sonic 與傳統語音 AI 的根本差異。
從「遺失情緒」到「保留脈絡」:語音 AI 的架構革命
語音 AI 的挑戰遠超過將聲音轉換為文字。人類對話充滿了文字無法完整捕捉的資訊——語調的起伏傳達情緒、停頓的長短暗示猶豫、音量的變化顯示強調。傳統語音 AI 的架構將這個複雜過程拆解為獨立步驟:
  1. 語音轉文字 (Speech-to-Text):將聲音轉為文字
  2. 大型語言模型處理 (LLM):理解文字並生成回應
  3. 文字轉語音 (Text-to-Speech):將回應轉為聲音
這個流程的致命問題在於「聲學脈絡」(acoustic context) 在第一步就遺失了。LLM 只看到文字「我很好」,看不到說話者的聲音其實透露著疲憊或沮喪。這種資訊損失導致 AI 的回應雖然內容正確,卻缺乏情感共鳴。
Nova Sonic 的統一模型設計
Nova Sonic 採用根本不同的方法——語音到語音 (speech-to-speech) 的統一模型。它不是將聲音降級為文字、處理文字、再升級回聲音,而是在整個過程中保持聲學資訊的完整性。輸入是聲音、內部處理仍然保留聲音的特性、輸出也是聲音。這種設計讓模型能夠:
適應說話風格:當客戶用輕鬆的語調開始對話,Nova Sonic 的回應也會更友善輕鬆。當客戶語氣變得急迫,回應會變得更簡潔有效率。當客戶表現出困惑,回應會放慢速度、提供更詳細的解釋。模型不只回應「內容」,更回應「氛圍」。
理解情緒脈絡:聲音攜帶的情緒資訊遠比文字豐富。客戶說「我等了三天」,可能是中立的陳述事實、可能是包含不滿的抱怨、可能是帶著理解的說明。Nova Sonic 能從語調、節奏、音高變化中解讀情緒狀態,讓系統的回應更加同理與適切。
自然的對話節奏:人類對話有自然的節奏——適時的停頓、語氣的轉折、對插話的反應。Nova Sonic 理解這些對話的「韻律」(prosody),能夠在適當時機開始說話、優雅地處理打斷、維持對話的流暢感。對話不再像機器人的輪流發言,而是像人與人之間自然的交流。
想像客戶來電抱怨產品問題。傳統系統可能準確辨識文字內容,但以一貫的中性語調回應,這會讓已經不滿的客戶感到被忽視。Nova Sonic 能夠識別客戶語氣中的挫折感,用更具同理心的語調回應、承認客戶的感受、表達解決問題的意願。這種情緒同步大幅提升客戶的被理解感與滿意度。
Nova 2 Sonic:全方位能力躍升
從 Nova Sonic 到 Nova 2 Sonic,這不只是版本號的更新,而是能力的全面躍升,讓對話式 AI 更接近人類交流的自然與豐富。
多語言支援的質變
Nova 2 Sonic 從原本的五種語言 (英語、法語、義大利語、德語、西班牙語) 擴展到七種,新增葡萄牙語與北印度語。這不只是語言數量的增加,更重要的是涵蓋了更廣泛的全球市場。北印度語的加入讓系統能服務印度這個龐大市場,葡萄牙語則打開巴西與葡語非洲的大門。
更革命性的是「多語言聲音」(polyglot voices) 能力。單一聲音 (如 Tiffany 語音) 能在同一對話中流暢切換所有支援的語言。想像一個情境:客戶用英語開始對話、遇到技術術語時切換回母語中文、討論完技術問題後又回到英語。系統的聲音特質保持一致,只是語言改變。這種連續性創造更自然的多語言體驗,不會因為語言切換而感到斷裂。
人類偏好評估顯示,聽眾持續偏好 Nova 2 Sonic 的輸出勝過其他領先模型。這種偏好來自於聲音的自然度、表達的豐富性、對話的流暢性。
一百萬 Token 脈絡視窗:長對話的記憶
這是對話 AI 的重大突破。一百萬 token 意味著能夠維持極長時間的對話而不遺失脈絡——包含數小時的語音交流、大量的參考資料、完整的歷史互動記錄。對於複雜的客服案例或深度的顧問對話,這種「長記憶」至關重要。
客戶不需要重複已經說過的資訊。系統記得對話開始時提到的細節、能夠參照十分鐘前討論的內容、可以連結不同主題之間的關係。對話變成連貫的敘事,而非片段的交換。
自然對話流程的細膩控制
Nova 2 Sonic 引入可設定的語音活動偵測 (voice activity detection) 靈敏度。高靈敏度最佳化最快回應時間,適合需要快速互動的場景。低靈敏度給予使用者更多時間完成思考,適合教育應用或需要深思熟慮的討論。
這種設定性讓系統能適應不同使用情境與使用者偏好。有些人喜歡快節奏的互動、有些人需要更多思考時間。系統能夠根據需求調整,而非強制單一模式。
跨模態互動:語音與文字的無縫切換
使用者可以在同一會話中自由切換語音與文字輸入。想快速提問?用語音。需要輸入複雜地址或技術規格?切換到文字。系統維持完整脈絡,不會因為輸入模態改變而中斷。
這種靈活性符合真實使用情境。人們自然地選擇最適合當下的溝通方式——在吵雜環境可能偏好文字、在駕駛時依賴語音、在需要精確時使用文字輸入。跨模態支援讓使用者不需要被困在單一模式中。
非同步工具呼叫:多工處理的關鍵
當 AI 需要呼叫外部工具或服務時 (如查詢資料庫、計算報價、發送通知),不需要暫停對話等待回應。系統可以同時處理多個任務——繼續與使用者對話、在背景執行工具呼叫、當結果返回時自然地整合到對話中。
想像使用者詢問「天氣如何?」然後立即又問「我的任務清單有什麼?」。系統同時查詢天氣 API 和任務管理系統,當兩個結果都返回後,以自然的方式呈現:「今天多雲,最高溫 22 度。你的任務清單有三項…」。使用者不需要等待,對話保持流暢。
電話與平台整合:從開發到生產
Nova 2 Sonic 直接整合領先的電話供應商 (Amazon Connect、Vonage、Twilio、AudioCodes) 與媒體平台 (LiveKit、Pipecat)。這些整合處理複雜的技術需求——音訊編解碼器最佳化、會話生命週期管理、雙向輸入/輸出事件處理、電話系統的聲學挑戰。
對開發者而言,這意味著可以將 Nova 2 Sonic 驅動的應用直接部署到既有呼叫中心基礎設施或建立新的電話服務,不需要管理底層電話複雜性。從原型到生產的路徑大幅簡化。
開放生態:支援多元語音技術選擇
AWS 對於 Amazon Connect 的 AI 能力採取開放策略——不強制使用單一語音技術,而是支援多元選擇。針對已使用第三方語音技術的客戶,Amazon Connect 目前也支援 DeepgramElevenLabs 等業者提供解決方案。
Deepgram 是專注於語音 AI 的公司,提供先進的串流語音轉文字 (STT)、文字轉語音 (TTS) 與語音代理能力。整合的價值在於「亞秒級延遲」(sub-second latency)——對於即時對話,延遲是關鍵體驗因素。ElevenLabs 以高品質的 AI 語音合成聞名,提供極具表現力與自然度的聲音。
這種多元支援的策略避免供應商鎖定、允許企業選擇最適合的技術、保護現有投資。當多個供應商競爭時,創新速度加快,企業因此受益於更快的技術進步、更好的價格、更多的功能。
實際應用價值:體驗革命帶來的業務成果
這些技術特性轉化為實際的商業價值。根據早期採用企業的回報:
  • 首次解決率 (First Call Resolution) 提升 25-30%
  • 平均處理時間 (Average Handle Time) 減少 40-50%
  • 客戶滿意度 (Customer Satisfaction Score) 顯著提高
  • 人工轉接率大幅降低,讓真人客服能專注於複雜案例
最重要的是客戶體驗的質變——從「與機器對話的挫折」到「與智慧助理協作的順暢」。當 AI 能夠真正理解客戶的情緒狀態、用適當的語調回應、維持自然的對話節奏時,客服不再是「必要之惡」,而是品牌體驗的核心環節。
對於全球部署的企業,多語言支援讓單一系統能服務全球客戶,不需要為每個市場建立獨立基礎設施。這對於國際企業是巨大的效率提升。同時,本地化的彈性確保文化適切性——不是強制單一模式,而是在統一架構下適應地區差異。
從技術到體驗:客服互動的新標準
Nova Sonic 與 Nova 2 Sonic 的演進,標誌著客服 AI 從「功能工具」進化為「體驗夥伴」。當技術能夠理解不只是話語內容、更是情感脈絡時,客服互動的本質改變了。客戶感受到的不再是冰冷的自動化,而是溫暖的智慧協助。
這不是終點,而是起點。隨著語音 AI 技術持續演進,我們將看到更自然、更個人化、更有溫度的對話體驗。客服中心不再是「處理問題的地方」,而是「建立關係的起點」。技術做對時,它是隱形的;客戶只感受到順暢、專業、有溫度的互動。
進一步了解或尋求專業建議
若您想深入了解如何將 Amazon Connect 與 Nova Sonic 語音模型整合到既有客服中心,或評估其如何滿足您的需求,歡迎聯絡 AWS 台灣團隊,我們的解決方案架構師將協助您設計最適合的策略。
無法去拉斯維加斯親自體驗?歡迎報名參與Best of AWS re:Invent (AWS 雲端科技發表會) 線上參與,一樣精彩!https://go.aws/48uR2Tx
關鍵字
大家都在看